Системы индексирования
Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ [29].
Рассмотрим классификацию систем индексирования |29].
1. Но степени автоматизации процесса индексирования выделяют
системы:
• ручного индексирования;
• автоматического индексирования;
• автоматизированного индексирования.
2. По степени контролируемости различают системы:
• без словаря;
• с жестким словарем;
• со свободным словарем.
3. По характеру алгоритма отбора слов текста выделяют системы:
• с последовательным просмотром текста (отбираются все полнозначные слова);
• с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре):
• со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления).
4. По характеру лексикографического контроля различают системы:
• без лексикографического контроля;
• с полным контролем;
• с промежуточным контролем.
Лексикографический контроль предусматривает [29]:
¦ устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
¦ нормализацию слов на основе морфологических нормативных
словарей.
5. По характеру морфологического анализа слов различают системы:
165
¦ с использованием морфологических словарей;
¦ с использованием основных лексических словарей;
¦ С использованием морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ С ручным индексированием.
Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря.
При жестком индексировании слова берутся только из текста.
Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые
МОГЛИ осуществлять глубокий анализ СМЫСЛОВОГО содержания документа и ОТНОСИТЬ его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные
расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный (рис. 7.4) [14].
Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.
Инвертированный тип индекса строится по обратной схеме — «термин—документы>. Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы.
166
Прямой индекс
Номер документа Термины
f, t> f. t, U
d, + +
d2 +¦ + +
d3 + +
dt + f +
Инвертированный индекс
Термины Номера документов
d d2 d, dt
f, + +
г, + +
h + +
t< + +
и + +
Рис. 7.4. Пример прямого и инвертированного индексов
Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).
Похожие рефераты: